“Image embedding(图像嵌入/图像向量表示)”指把一张图片通过算法(常见为神经网络)转换成一个固定长度的向量(embedding)。这个向量会尽量保留图片的语义信息,便于进行相似度检索、分类、聚类、跨模态检索(图文匹配)等任务。
/ˈɪmɪdʒ ɪmˈbɛdɪŋ/
The model turns each photo into an image embedding.
该模型把每张照片转换成一个图像嵌入向量。
By comparing cosine similarity between image embeddings, we can retrieve visually and semantically related images even when lighting and backgrounds differ.
通过比较图像嵌入之间的余弦相似度,我们可以在光照和背景不同的情况下,仍然检索到在视觉与语义上相关的图片。
“Image”来自拉丁语 imago(形象、肖像),“Embedding”来自“embed”(嵌入、嵌进去),其词根含义与“放入/固定在某处”相关。在机器学习语境中,embedding 常指把对象映射到向量空间的“稠密表示”;合起来“image embedding”就是“把图像嵌入到向量空间中的表示”。